语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
照料者与儿童之间的互动在人类语言获取和发展中起着至关重要的作用。鉴于这一观察结果,显式的互动在人工语言建模中几乎没有作用,这也针对人类语言的获取,但通过人工模型。此外,一种交互式的语言建模方法具有使语言模型更具用途并严重影响下游应用程序的潜力。在这些考虑因素上,我们开创了交互式语言建模的空间。作为第一个贡献,我们提出了一个路线图,在该路线图中,我们详细介绍了需要采取互动语言建模的步骤。然后,我们以身作则,并在此路线图上采取第一步,显示了我们方法的最初可行性。因此,这项工作旨在成为关于互动语言建模的更大研究议程的开始。
translated by 谷歌翻译
对理解通过语言模型(LMS)的隐藏表示捕获的信息有很多兴趣。通常,解释方法I)不保证模型实际使用编码信息,并且II)不发现负责考虑现象的小型神经元。灵感来自因果调解分析,我们提出了一种在神经LM内发现的方法,该方法在负责特定语言现象的小神经元的小神经元中发现,即引起相应令牌排放概率的变化的子集。我们使用可怜的放松来近似搜索组合空间。 $ L_0 $正常化术语可确保搜索收敛到离散和稀疏解决方案。我们应用我们在LSTMS中分析主题 - 动词号协议和性别偏见检测的方法。我们观察到它是快速的,而不是替代方面的解决方案(加强)。我们的实验证实,这些现象中的每一个都是通过不发挥任何其他可辨别作用的小神经元的小型介导的。
translated by 谷歌翻译
NLP中的培训数据记忆可以是有益的(例如,封闭书QA)和不良(个人数据提取)。无论如何,成功的模型培训需要非琐碎的记忆量来存储单词拼写,各种语言特质和共同知识。然而,关于影响NLP模型的记忆行为的内容知之甚少,因为该字段倾向于专注于泛化的同样重要问题。在这项工作中,我们证明了由字节对编码(BPE)学习的子字词汇的大小极大地影响了标准变压器模型的能力和趋势,即使我们控制获取学习参数的数量,也是如此。我们发现,通过大小的子字词汇大小,变压器模型更容易适合随机映射,更容易受到成员推理攻击。同样,给定提示,具有大小字词汇的基于变换器的语言模型更频繁地再现培训数据。我们猜测这种效果是由于随着BPE词汇量而发生的序列的减少引起的。我们的研究结果可以允许更明智的超参数选择,这对于特定用例来说更好地定制。
translated by 谷歌翻译
神经语言模型如何跟踪主题和动词之间的数字协议?我们显示“诊断分类器”,以预测语言模型的内部状态的预测数字,详细了解如何,何时和位置。此外,在语言模型最终达成协议错误的情况下,他们向我们讨论数字信息损坏的时间和地点。为了展示我们发现的陈述所扮演的因果作用,我们在处理困难句子期间使用协议信息来影响LSTM的过程。这种干预的结果揭示了语言模型的准确性大幅增加。这些结果表明,诊断分类器给我们一个无与伦比的详细研究神经模型中语言信息的表示,并证明了这种知识可用于提高它们的性能。
translated by 谷歌翻译